查看原文
其他

英伟达,投了一家交换芯片公司

MooreNEWS 路科验证 2024-04-14

初创公司 Enfabrica 正在开发了一款加速计算结构交换芯片,用于组合和桥接 PCIe/CXL 和以太网结构,该公司现在已筹集 1.25 亿美元的 B 轮融资。


其技术融合了内存和网络结构架构,旨在为 GPU 带来比当前使用CXL 式池的HBM 技术更多的内存,并通过基于多太比特以太网的交换方案将数据输入内存。这依赖于正在开发的 ACF-S 芯片和 100-800Gbps 以太网链路。


Enfabrica 首席执行官兼联合创始人 Rochan Sankar 表示:“当今 AI 繁荣的根本挑战是基础设施的扩展……扩展问题很大程度上在于 I/O 子系统、内存移动和附加到 GPU 计算的网络,而这些正是 Enfabrica 的 ACF 解决方案的亮点”。


本轮融资由 Atreides Management 领投,现有投资者 Sutter Hill Ventures、Valor、IAG Capital Partners、Alumni Ventures 以及 Nvidia 作为战略投资者都参与其中。Enfabrica 的估值较 2022 年 A 轮估值 5000 万美元上涨了 5 倍。


Enfabrica 正在开发一个 8Tbps 交换平台,支持将 GPU、CPU、CXL 连接的 DDR5 内存和 SSD 存储的任意组合直接连接到高性能、多端口 800 千兆位以太网网络。该公司拥有大约 100 名芯片和软件工程师,总部位于加利福尼亚州山景城、北卡罗来纳州达勒姆和印度海得拉巴。



它以层级的形式看待内存。DDR 和 HBM 构成了最快的层,具有个位数 TB 容量。第 2 层是 ACF-S 设备本地的 CXL 内存,容量为数十 TB。RDMA 发送/接收访问的网络内存是第 3 层,具有数千 TB 的容量。ACF-S 连接内存可根据需要针对特定工作负载进行组合。


该公司已经证明其交换芯片架构和设计是正确的,并且应该能够按预期加速向 GPU 的数据传输。风险投资公司对其迄今为止的进展深信不疑,现在它有资金来建设它。Sankar 表示:“我们的 B 轮融资和投资者是对我们团队和产品论文的认可,并进一步使我们能够生产高性能 ACF 芯片和软件,从而推动 AI 计算资源的高效利用和扩展。”



Enfabrica 认为其技术特别适合 AI/ML 推理工作负载,与 AI/ML 训练不同。Sankar 表示,当前的训练系统组合在一起的 GPU 数量多于计算所需的数量,只是为了获得足够的内存。Sankar 表示,这意味着 GPU 未得到充分利用,并且浪费了昂贵的处理能力。


ACF-S 芯片和相关软件应该能够帮助客户在相同性能点下将 LLM 推理的 GPU 计算成本降低约 50%,将深度学习推荐模型推理的 GPU 计算成本降低 75%。这是因为 Enfabrica 方案取代了 NIC、SerDes、DPU 和架顶交换机,从而节省了互连设备。


采用 Enfabrica 的 ACF-S 芯片的 ACF 交换系统将具有 100% 符合标准的接口,并且 Enfabrica 的主机网络软件堆栈运行在标准 Linux 内核和用户空间接口上。


Sankar 证实,Enfabrica 技术将与高性能计算相关,进入该市场几乎不需要任何开发。理论上,Enfabrica 可以支持 InfiniBand 和以太网,但认为没有必要这样做。


Enfabrica 尝试解决 AI 计算扩展问题

Enfabrica正在构建大规模互连芯片、服务器结构适配器 (SFA)、加速结构硅设备,用于链接机架内部和机架之间的智能端点设备,桥接机架内 PCIe/CXL 和机架间以太网、RDMa -具有每秒太比特带宽的跨结构世界。


它看到了对如此巨大带宽的需求的机会,因为人工智能和机器学习对 GPU、CPU、加速器、内存和存储的规模要求越来越高,而当前的网络趋势还不够。AL/ML 资源需求正在高速增长,而网络(数据中心中的数据移动架构)却跟不上,导致资源搁浅且未充分利用,昂贵的 GPU 和其他加速器闲置。



该公司首席执行官兼联合创始人 Rochan Sankar 告诉 B&F,人工智能应用程序的传播需要机架内和机架间网络速度的大幅提高:“我们不是在谈论 GPU 架构针对什么进行优化,而是在谈论以百万计的流量运行每秒兆位。好的。人工智能是数百条以每秒太比特的速度运行的通道。”


他表示,人工智能问题的规模(例如,训练模型参数的数量)正在增长,尽管他给出的范围很宽泛,每两年增长 8 倍到 275 倍。GPU 和特定的 AI 处理器代表加速计算。IO 带宽滞后于加速计算扩展两个数量级。



PCIe 是一种机箱内、机架内系统互连,而 CXL 可以桥接机架,但要到 2027 年CXL 3.0级组件才能提供真正的内存池。那太晚了,结果是现在存在网络带宽差距。


Wheeler's Network 首席分析师 Bob Wheeler 在一份声明中表示:“随着第一代芯片现已上市,围绕 CXL 的早期炒作正在让位于对性能和功能的现实期望。”


“CXL 硬件生态系统仍不成熟,CXL 3.x 组件(包括 CPU、GPU、交换机和内存扩展器)仍在开发中。与此同时,超大规模企业已将 RDMA-over-Ethernet (RoCE) 网络扩展到数千个服务器节点。通过将 CXL/PCIe 交换机和 RDMA-NIC 功能整合到单个设备中,Enfabrica 的 SFA 独特地融合了这些互补技术,消除了对尚不可用的高级 CXL 功能的依赖。”


PCI 和 CXL 使用内存语义,而以太网和 RDMA 链路使用网络协议。Enfabrica 表示,业界需要以某种方式桥接两者,以获得机架内部和机架之间一致的互连速度。否则,我们的 GPU 等计算加速器就会闲置且未得到充分利用。Sankar 告诉我们,每美元带宽的阶跃函数增加可以帮助实现人工智能和数据库计算的更可持续的成本。Sankar 表示,可以放大和缩小的弹性连接织物也不会造成伤害。



当然,这就是 Enfabrica 的 SFA 芯片声称能够提供的功能。Sankar 告诉我们,它使用标准接口,不需要更改 AI/ML IT 堆栈中的应用程序、计算、存储和网络元素。它可以在 CXL 3.0 到来之前提供对分解内存的访问,但将支持 CXL 3.0 并且不会违反该标准。


两张幻灯片展示了其 ACF-S 芯片功能的更多细节:



Enfabrica 表示,与 Meta 使用的 NVIDIA 和 Grand Teton 系统的产品相比,SFA 芯片系统在成本、扩展性和性能方面都具有优势:



该公司表示,预计到 2027 年,其 SFA 芯片的互连市场将达到 200 亿美元,目标市场为公共和私有云运营商、高性能计算和网络系统构建商。它补充说,他们将看到的好处是去除现有的互连组件,释放空间并降低机架中组件的复杂性。链路速度将大幅提升,加速器利用率提高,缩短AI模型训练运行时间并降低成本:



Sankar 表示,AI 集群的总拥有成本最多可降低 40%,GPU 机架和集群功耗可降低 10%。此外,AI 集群的规模可以增加 10 倍,从数百个节点增加到数千个节点,从而促进模型大小的增加和/或模型运行时间的减少。



这不是 Fungible/Pensando 风格的 DPU。它的目的并不是让 x86 处理器能够将更多时间用于应用程序执行。这更像是一个网络芯片,旨在释放闲置的加速器计算设备;GPU 和 AI 专用处理器以及内存有限的 x86 处理器,并更好地利用它们并进行扩展,从而可以缩小 Enfabrica 强调的 AI 计算差距。

👇👇 点击文末【阅读原文】,可查看原文链接!

来源:内容由半导体芯闻(ID:MooreNEWS)综合自blocksandfiles,谢谢。


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存